ECS使用成熟度评估与洞察(ECS Insight)会从基础能力、成本洞察、自动化能力、可靠性能力、弹性能力、安全能力六个维度,对ECS的使用成熟度进行评估,并提供优化建议。
评估维度 | 说明 |
评估当前账号下所有ECS和关联资源分布是否合理,识别业务在性能、高可用等维度存在的潜在风险,并提供对应的优化建议。 | |
评估当前账号下ECS的付费方式选择、实例规格与业务负载的匹配度、以及成本精细化管理是否合理,并提供对应的优化建议。 | |
评估该账号下对ECS实例运维管理的自动化程度,并提供对应的优化建议。 | |
评估该账号下的ECS是否存在单点稳定性隐患、以及业务高可用风险,并提供对应的优化建议。 | |
评估该账号下的ECS弹性能力使用情况,以及是否存在无法弹出来的风险,并提供对应的优化建议。 | |
评估该账号下的ECS在访问安全、数据安全、应用安全方面是否存在风险,并提供对应的优化建议。 |
对于每个评估项,ECS Insight会给出不同的结果和对应的严重程度评估,各等级代表的评估结果及建议操作如下:
高危(Critical):表示当前账号下资源的使用方式不符合该评估项的标准,且该问题属于高危风险,建议用户尽快根据最佳实践进行修复和优化。得分为0分。
警告(Warn):表示当前账号下资源的使用方式不符合该评估项的标准,且该问题存在一定风险。建议用户根据最佳实践进行修复和优化。得分由具体评分标准而定。
提示(Info):表示当前账号下资源的使用方式不符合该评估项的标准,但是该问题不严重。用户可以根据业务需要选择是否进行优化。得分由具体评分标准而定。
不适用(Not-Applicable):表示当前账号下资源不符合该评估项的评估门槛,暂时不做评估,用户无需关注。得分为0分。
健康(OK):表示当前账号下资源的使用情况已经满足该评估项的标准,没有风险,用户无需关注。得分为该评估项分值的满分。
ECS基础能力
ECS基础能力主要评估当前账号下所有ECS和关联资源分布是否合理,识别业务在性能、高可用等维度存在的潜在风险,并提供优化建议。
该维度包含计算基础能力、存储基础能力、网络基础能力和API与资源管理基础能力四大分类,每个分类下会包含多个评估项,每个评估项对应的分值、评分标准和最佳实践如下表所示。
评估项分类 | 评估项分类描述 | 评估项 | 评估项描述 | 评估项分值 | 评估项评分标准 | 是否返回受影响的资源 | 最佳实践 |
计算基础能力 | 评估该账号拥有的所有ECS实例在地域、可用区、实例规格族等分布是否合理。 | ECS实例的可用区分布合理 | 检查账号下所有ECS实例对应的可用区分布是否合理,避免单可用区带来的稳定性风险。 | 10 |
| 是 | |
未保有经典网络类型的ECS实例 | 检查账号下是否保有经典网络类型的ECS实例,避免经典网络存在的安全风险。 | 10 |
| 是 | 请根据业务需要,将全部或部分经典网络类型的实例迁移至专有网络VPC。具体操作,请参见经典网络迁移到专有网络。 | ||
未保有已停售或过老的ECS实例规格 | 检查账号下是否保有已停售或过老规格族(即没有待处理的因系统架构升级需迁移实例的事件)的ECS实例。 | 10 |
| 是 | 请尽快迁移已停售规格的ECS实例,提升ECS实例的稳定性。具体操作,请参见实例因底层升级需迁移。 | ||
存储基础能力 | 评估本账号在磁盘使用上是否合理。 | 未保有普通云盘 | 检查账号下是否保有已停售的EBS云盘类型。 | 10 |
| 是 |
|
未保有过老的本地盘实例 | 检查账号下是否保有已停售的本地盘类型的实例。 | 10 |
| 是 | 请根据业务需求,对已停售的本地盘类型的实例上的数据进行备份后,释放过老的本地盘后购买新的本地盘类型的实例。搭载本地盘的实例类型,请参见大数据型和本地SSD型。 | ||
网络基础能力 | 评估本账号下在过去一段时间内所有ECS实例对应的安全组配置是否合理。 | 保有非默认的安全组 | 检查账号下是否保有且使用了非默认安全组。 | 10 |
| 否 | 请根据业务需要,创建符合业务场景需求的安全组并设置安全组规则,提高ECS实例的安全性。具体操作,请参见创建安全组。 |
API与资源管理基础能力 | 评估本账号下所有子账号和资源分类的管理是否合理 | 使用标签对资源进行合理分组 | 检查账号下是否正确使用了标签进行资源分组。 | 20 |
| 是 | 建议您使用标签策略及时发现并定位未绑定指定标签键和标签值的资源,并为未打标签的ECS实例打上2个以上的用户标签。更多信息,请参见使用标签策略实现标签自动检测、创建或绑定标签和标签设计最佳实践。 |
OpenAPI的调用成功率位于合理范围 | 检查账号下的OpenAPI调用是否存在大量失败。 | 20 |
| 是 | 请根据业务需要,关注OpenAPI的返回值为4xx的占比是否符合预期。更多错误码详情,请参见ECS错误码。 |
成本洞察能力
ECS成本洞察能力主要评估ECS和关联资源付费方式的使用是否合理,以及是否进行了精细的成本管理和分析。
该维度包含基础的ECS成本分析能力、精细化的ECS成本洞察能力和成本分析能力三大分类,每个分类下会包含多个评估项,每个评估项对应的分值、评分标准和最佳实践如下表所示。
评估项分类 | 评估项分类描述 | 评估项 | 评估项描述 | 评估项分值 | 评估项评分标准 | 是否返回受影响的资源 | 最佳实践 |
基础的ECS成本分析能力 | 评估账号下的资源是否使用了合适的成本管理方式,避免成本浪费或业务中断。 | ECS实例退款次数超过上限 | 检查账号下的包年包月实例当月退款次数是否达到配额上限。 | 10 |
| 是 | 对于临时使用的ECS实例,建议采用按量方式购买。更多信息,请参见按量付费。 |
使用节省停机模式 | 检查账号下已关机的实例是否采用节省停机模式关机,避免资源浪费。 | 20 |
| 是 | 请根据业务需要,在业务处于间歇期时对不需要的ECS实例设置节省停机模式,降低资源的持有成本。具体操作,请参见按量付费实例节省停机模式。 | ||
存在因欠费而不可用的ECS实例 | 检查账号下是否存在因欠费而不可用的ECS实例。 | 10 |
| 是 | |||
存在因包月到期而不可用的ECS实例 | 检查账号下是否存在因包月到期而不可用的ECS实例 | 10 |
| 是 |
| ||
精细化的ECS成本洞察能力 | 评估该账号在过去一段时间是否使用了ECS高阶能力(比如升级)进行成本优化。 | 预付费的ECS实例开通自动续费功能 | 检查账号下包年包月的ECS实例是否设置自动续费,避免业务中断风险。 | 30 |
| 是 | 请根据业务需要,对于长期使用的ECS实例开通自动续费,减少手动续费的管理成本,避免因忘记手动续费而导致ECS实例服务中断。更多信息,请参见自动续费。 |
成本分析能力 | 评估该账号在过去一段时间是否使用了阿里云提供的成本分析工具进行成本分析与成本优化。 | 使用财务单元和费用标签进行分账管理 | 检查账号下是否使用财务单元和费用标签进行成本管理。 | 10 |
| 是 | 请根据业务需要,使用财务单元和费用标签进行分账管理,可以根据具体资源用量和分拆费用为企业内部分账提供参考依据。更多信息,请参见分账管理和使用标签实现成本分摊管理。 |
使用了预算管理功能 | 检查账号下是否使用预算进行成本管理。 | 10 |
| 否 | 请根据业务需要,使用预算管理功能对成本进行精细化管理。更多信息,请参见预算管理。 |
自动化能力
ECS自动化能力主要评估用户在使用ECS和关联资源的过程中,是否使用了自动化能力提升ECS运维效率。
该维度包含自动化基础能力、自动化进阶能力与自动化高阶能力三大分类,每个分类下会包含多个评估项,每个评估项对应的分值、评分标准和最佳实践如下表所示。
评估项分类 | 评估项分类描述 | 评估项 | 评估项描述 | 评估项分值 | 评估项评分标准 | 是否返回受影响的资源 | 最佳实践 |
自动化基础能力 | 评估该账号在过去一段时间是否使用了自动化工具。 | 使用了ECS的OpenAPI进行运维管理 | 检查账号下是否通过OpenAPI调用进行ECS实例管理。 | 10 |
| 否 | 请根据业务需要,使用相关API进行对应管理操作,提高操作效率。更多信息,请参见API概览。 |
使用最新的SDK创建和管理ECS等资源 | 检查账号下是否使用最新的SDK创建或管理ECS实例,提升运维效率。 | 10 |
| 否 | 请根据业务需要,使用最新的SDK创建或管理ECS等资源,提升云上资源管理效率。更多信息,请参见通过SDK使用ECS实例。 | ||
使用最新的CLI创建和管理ECS等资源 | 检查账号下是否使用最新的CLI创建或管理ECS实例,提升运维效率。 | 10 |
| 否 | 请根据业务需要,使用最新的CLI创建或管理ECS等资源,提升云上资源管理效率。更多信息,请参见通过CLI使用ECS实例。 | ||
自动化进阶能力 | 评估该账号在过去一段时间是否使用了自动化进阶能力。 | 使用资源编排一键交付ECS等资源 | 检查账号下是否使用资源编排ROS交付资源,提升运维效率。 | 10 |
| 否 | 请根据业务需要,创建资源栈并使用模板交付ECS相关资源,以提升交付效率。具体操作,请参见创建资源栈。 |
使用云助手进行运维管理 | 检查账号下是否使用云助手进行部署和运维,提升实例管理效率。 | 10 |
| 否 | 请根据业务需要,使用云助手完成ECS实例的日常运维,包括执行命令、上传文件等,以提升运维效率。更多信息,请参见云助手概述和使用云助手。 | ||
使用系统运维管理(OOS)进行自动化运维管理 | 检查账号下是否使用系统运维管理(OOS)进行运维,提升实例管理效率。 | 10 |
| 否 | 请根据业务需要,使用OOS进行ECS的批量操作,包括批量操作实例、定时开关机、带宽临时升级等,提升实例管理效率。具体操作,请参见批量操作实例、定时开关机、带宽临时升级。 | ||
自动化高阶能力 | 评估该账号在过去一段时间是否使用了自动化高阶能力。 | 使用系统运维管理(OOS)的定时、告警或事件触发方式进行自动化运维管理 | 检查账号下是否使用系统运维管理(OOS)的定时、事件或告警运维,提升实例管理效率。 | 10 |
| 否 | 请根据业务需要,使用OOS的定时、告警或事件触发的自动化运维响应,提升运维的自动化程度和效率。具体操作,请参见参考定时运维、创建告警运维任务、创建事件运维任务。 |
使用补丁管理进行运维管理 | 检查账号下是否使用补丁管理服务对ECS实例进行系统补丁扫描或安装,提升实例的安全性。 | 10 |
| 否 | 请根据业务需要,使用补丁管理功能自动升级系统补丁,提升操作系统的安全性。更多信息,请参见补丁管理。 | ||
使用软件包进行运维管理 | 检查账号下是否使用软件包进行应用的管理或升级,提升实例管理效率。 | 10 |
| 否 | 请根据业务需要,使用软件包对不同团队使用的软件进行统一管理,提升云上管理效率。具体操作,请参见批量管理我的软件。 | ||
使用系统运维管理(OOS)的公共模板创建镜像 | 检查账号下是否使用系统运维管理(OOS)的模板创建镜像,提升实例管理效率。 | 10 |
| 否 | 请根据业务需要,使用OOS的自定义模板创建自定义镜像,提升镜像管理效率。具体操作,请参见使用OOS创建自定义镜像。 |
可靠性能力
ECS可靠性能力主要评估ECS及关联资源是否存在可靠性风险,包括使用率偏高的资源、未响应的运维事件及实例打散等。
该维度包含实例稳定性、性能可靠性和应用可靠性三大分类,每个分类下会包含多个评估项,每个评估项对应的分值、评分标准和最佳实践如下表所示。
评估项分类 | 评估项分类描述 | 评估项 | 评估项描述 | 评估项分值 | 评估项评分标准 | 是否返回受影响的资源 | 最佳实践 |
实例稳定性 | 评估该账号在过去一段时间是否对重要的ECS实例主动进行运维规避,提升单个实例的稳定性体感。 | 及时响应计划内运维事件 | 检查账号下是否存在待处理的运维事件,提升实例稳定性。 | 10 |
| 是 | 请根据业务需要,查看并响应ECS系统事件,并设置事件驱动的自动化响应,及时规避业务风险。具体操作,请参见查询和响应ECS系统事件和设置事件通知。 |
ECS实例未出现被动停机 | 检查账号下是否存在因欠费或安全问题导致ECS实例被动停机,提升实例稳定性。 | 10 |
| 是 | 请根据业务需要,及时充值结清欠费账单并重开机,或者在云安全中心控制台查看安全检测风险并处理。更多信息,请参见欠费说明和欠费说明。 | ||
最近7天有创建快照进行数据备份 | 检查账号下过去7天是否有创建新的快照,提升实例数据可靠性。 | 10 |
| 否 | 对于重要的ECS实例,建议您设置自动快照策略,周期性进行数据备份。具体操作,请参见创建自动快照策略。 | ||
性能可靠性 | 评估该账号在过去一段时间是否存在性能表现异常的ECS实例,并采取对应的措施规避性能引发的可靠性问题。 | ECS实例的CPU使用率过高 | 检查账号下是否存在CPU使用率偏高的ECS实例,提升业务可靠性。 | 10 |
| 是 | 请根据业务需要,对ECS实例的CPU使用率进行监控设置与报警,在CPU使用率异常时及时采取行动,避免影响业务正常运行。具体操作,请参见设置ECS实例报警。 |
ECS实例的内存使用率过高 | 检查账号下是否存在内存使用率偏高的ECS实例,提升业务可靠性。 | 10 |
| 是 | 请根据业务需要,对ECS实例的内存使用率进行监控设置与报警,在内存使用率异常时及时采取行动,避免影响业务正常运行。具体操作,请参见设置ECS实例报警。 | ||
云盘的磁盘空间使用率过高 | 检查账号下是否存在磁盘空间使用率偏高的EBS云盘,提升业务可靠性。 | 10 |
| 是 | 请根据业务需要,对ECS实例的磁盘使用率进行监控,并根据业务需要及时对磁盘空间使用率较高的磁盘进行扩容,提前规避业务风险。具体操作,请参见设置ECS实例报警。 | ||
云盘性能指标使用率过高 | 检查账号下是否存在使用率偏高的EBS云盘,提升业务可靠性。 | 10 |
| 是 | |||
ECS实例关联的安全组规则过多 | 检查账号下ECS实例关联的安全组规则是否过多 | 10 |
| 是 | 请根据业务需要,删除不需要的安全组规则,避免单个ECS实例关联的安全组规则过多。更多信息,请参见安全组应用案例。 | ||
ECS实例的网络性能状态正常 | 检查账号下是否存在网络性能受损的ECS实例,提升业务可靠性。 | 10 |
| 是 | 请根据业务需要,查看并响应对应的系统事件,避免网络性能受损影响业务正常运行。具体操作,请参见查询和响应ECS系统事件和设置事件通知。 | ||
应用可靠性 | 评估该账号在过去一段时间是否使用部署集功能提升整个应用的可靠性和可用性。 | 部署集使用合理 | 检查账号下是否使用部署集,提升集群的可用性。 | 10 |
| 否 | 请根据业务需要,创建部署集并调整实例所属的部署集,将ECS实例分散部署在不同的物理服务器上,提升业务的高可用性和底层容灾能力。具体操作,请参见创建部署集和调整实例所属部署集。 |
弹性能力
ECS弹性能力主要评估ECS资源的弹性能力使用情况,以及是否存在弹性风险。
该维度仅包含弹性基础能力,该分类下会包含多个评估项,每个评估项对应的分值、评分标准和最佳实践如下表所示。
评估项分类 | 评估项分类描述 | 评估项 | 评估项描述 | 评估项分值 | 评估项评分标准 | 是否返回受影响的资源 | 最佳实践 |
弹性基础能力 | 评估该账号在过去一段时间是否使用了类似于弹性资源预定、实例规格组合指定方式等高阶弹性能力,以提升弹性体验。 | 使用弹性伸缩的多规格和多可用区配置能力 | 检查账号下的伸缩组是否存在弹性成功率低的风险,提升弹性扩容成功率。 | 100 |
| 否 |
|
安全性能力
ECS安全性能力主要评估ECS及关联资源是否存在数据安全、网络安全和访问安全的风险。
该维度包含实例的数据安全能力和实例的访问安全能力两大分类,每个分类下会包含多个评估项,每个评估项对应的分值、评分标准和最佳实践如下表所示。
评估项分类 | 评估项分类描述 | 评估项 | 评估项描述 | 评估项分值 | 评估项评分标准 | 是否返回受影响的资源 | 最佳实践 |
实例的数据安全能力 | 评估该账号在过去一段时间是否通过数据加密等能力提升实例的数据安全等级。 | 保有并使用账户组、RAM用户(子账号)、角色 (账号安全) | 检查账号下是否使用过子账号、角色等功能,以提升账号安全。 | 15 |
| 是 | 推荐您使用RAM用户(子账号)、角色、账号组,提高账号安全性,保障业务安全。更多信息,请参见创建RAM用户和为RAM用户授权。 |
使用云盘加密能力提升数据安全性 | 检查账号下是否使用云盘加密能力,以提升数据安全性。 | 10 |
| 是 | 请根据业务需要,对系统盘或数据盘进行加密,提升云盘上的数据安全。具体操作,请参见加密云盘。 | ||
实例的访问安全能力 | 评估该账号在过去一段时间是否通过安全加固等能力提升ECS实例的访问安全能力。 | 使用密钥对(仅Linux) | 检查账号下是否使用密钥对登录Linux实例,提升实例的访问安全性。 | 10 |
| 否 | 请根据业务需要,使用密钥对登录Linux实例,提升实例访问安全性。具体操作,请参见通过密钥认证登录Linux实例。 |
使用非root账号登录Linux实例 | 检查账号下是否使用非root账号登录Linux实例,提升实例的访问安全性。 | 10 |
| 是 | |||
安全组的特定端口无限制访问 | 检查账号下安全组的特定端口访问是否无限制。 | 20 |
| 是 | 请根据业务需要,修改安全组的规则,添加对关键端口(20、21、1433、1434、3306、3389、4333、5432、5500)的访问限制。更多信息,请参见安全组规则和安全组应用案例。 | ||
实例的网络安全 | 评估该账号在过去一段时间内是否存在网络安全风险。 | ECS实例遭受DDoS安全攻击 | 检查账号下的ECS实例是否正在遭遇DDoS安全攻击。 | 15 |
| 是 | 请根据业务需要,设置清洗阈值,避免使用固定阈值可能导致的误清洗。具体操作,请参见设置流量清洗阈值。 |
ECS实例因挖矿等违法行为被封禁 | 检查账号下的ECS实例是否正在因挖矿等违法行为被封禁。 | 20 |
| 是 | 当收到实例被安全封禁事件时,您可以根据需要选择一种响应方式: |